BOÎTE A OUTILS 2

Pour cette étape, le but est d’obtenir un texte qui soit étiqueté de façon morphosyntaxique. Pour cela nous avons à notre disposition deux programmes différents : CORDIAL et TREETAGGER.

Cordial

La première stratégie d’étiquetage consiste à utiliser Cordial. Certaines contraintes spécifiques au fonctionnement de Cordial rendent nécessaire une étape de prétraitement des fichiers :

  • Le logiciel ne supporte pas les fichiers au-dessus d’une certaine taille.
  • Les fichiers à traiter sont uniquement les sorties TXT.
  • Les fichiers doivent être en ISO-Latin.

Transcodage

Comme nos fichiers sont en utf-8 et cordial ne travaille qu'avec des fichiers en ISO-Latin, il faut convertir les fichiers en ISO-8859-1. Pour faire le transcodage je vais utiliser un script perl :

Utilisation Cordial

Après avoir ouvert le logiciel, il suffit d'ouvrir le fichier texte à étiqueter et de sélectionner syntaxique > étiquetage. Les paramètres à appliquer sont les suivants :

Résultat

En selectionnant les paramètres ci-dessus, le fichier en sortie est un fichier .cnr contenant trois colonnes (séparées par des tabulations). La première colonne contient la forme du mot, la deuxième le lemme et la troisième la catégorie syntaxique.

Cliquez ici pour visualiser le résultat de la rubrique 'Cinema'


Tree Tagger

Utilisation Tree Tagger

La seconde stratégie d’étiquetage consiste à utiliser Treetagger. L’avantage de cet outil est qu’il est possible de l’utiliser en ligne de commande. La solution de TreeTagger est donc plus automatique que celle de Cordial, mais prend beaucoup plus de temps.

La syntaxe de Treetagger est la suivante :

treetagger.exe [options] <parameters> <input> <output>

Input et output correspondent aux fichiers d’entrée et de sortie. Il faut également préciser le chemin vers le fichier de paramètre pour la langue qu’on traite ainsi que les options d’étiquetage :